Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Podobne dokumenty
Regresyjne metody łączenia klasyfikatorów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Metoda najmniejszych kwadratów

Estymacja w regresji nieparametrycznej

Metody systemowe i decyzyjne w informatyce

Wprowadzenie. Data Science Uczenie się pod nadzorem

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

1 Zmienne losowe wielowymiarowe.

Metody systemowe i decyzyjne w informatyce

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Uogolnione modele liniowe

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

5. Analiza dyskryminacyjna: FLD, LDA, QDA

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Własności statystyczne regresji liniowej. Wykład 4

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

2. Empiryczna wersja klasyfikatora bayesowskiego

Jądrowe klasyfikatory liniowe

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Weryfikacja hipotez statystycznych

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 3: Regresja: Regresja liniowa

Metody systemowe i decyzyjne w informatyce

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Natalia Neherbecka. 11 czerwca 2010

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Rozpoznawanie obrazów

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Metody systemowe i decyzyjne w informatyce

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Algorytmy MCMC i ich zastosowania statystyczne

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Klasyfikacja i dyskryminacja

Rozpoznawanie obrazów

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Metoda największej wiarygodności

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

1 Klasyfikator bayesowski

Agata Boratyńska Statystyka aktuarialna... 1

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Zawansowane modele wyborów dyskretnych

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Estymatory nieobciążone

Prawdopodobieństwo i statystyka r.

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Imputacja brakujacych danych binarnych w modelu autologistycznym 1

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Komputerowa analiza danych doświadczalnych

Metody Ekonometryczne

Modele zapisane w przestrzeni stanów

1 Gaussowskie zmienne losowe

Metoda największej wiarygodności

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

WYKŁAD 8 ANALIZA REGRESJI

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Prawdopodobieństwo i statystyka

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Komputerowa analiza danych doświadczalnych

Komputerowa Analiza Danych Doświadczalnych

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

1 Warunkowe wartości oczekiwane

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Ważne rozkłady i twierdzenia c.d.

WYKŁAD 2. Problem regresji - modele liniowe

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Podstawowe modele probabilistyczne

Wartość oczekiwana Mediana i dominanta Wariancja Nierówności związane z momentami. Momenty zmiennych losowych Momenty wektorów losowych

Metoda największej wiarogodności

Prawdopodobieństwo i statystyka

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Transkrypt:

Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora ˆr możemy posłużyć się klasyfikatorem postaci { 1, jeżeli ˆr(x) > 1 ˆd(x) = 2, 0, pozatym.

Najprostszym modelem regresji jest model regresji liniowej Y =r(x)+ε = β 0 + p β j x j +ε, wktóryme(ε) =0. Model ten nie może być poprawny, ponieważ nie wymusza on Y =1lubY =0.Niemniejwwieluprzypadkachprowadziondo przyzwoitego klasyfikatora. j=1

NiechY = (Y 1,Y 2,...,Y n ) iniechxoznaczamacierz n (p +1)postaci X = 1 x 11... x 1p 1 x 21... x 2p... 1 x n1... x np. Wówczas model regresji liniowej możemy zapisać w postaci macierzowej gdzie ε = (ε 1,...,ε n ). Y =Xβ +ε,

Estymator najmniejszych kwadratów ma postać ˆβ = (X X) 1 X Y. Estymator ˆr(x) funkcji regresji ma postać p ˆr(x) = ˆβ 0 + ˆβ j x j. j=1

Rozważania te można uogólnić na przypadek, gdy liczba grup K 2iY= {1,2,...,K}.WtymprzypadkuetykietęYo wartościach 1 lub 0 musimy zastąpić etykietą wektorową Y = (Y 1,Y 2,...,Y K ) owartości (0,...,0,1,0,...,0),gdziejedynkawystępujenak-tymmiejscu jeśliobserwacjax ij = (x ij1,x ij2,...,x ijp ) pochodzizk-tejgrupy.

Model regresji liniowej należy wówczas zastąpić wielowymiarowym modelem liniowym regresji postaci Y =XB +E, gdzieyjestmacierząrozmiarun Kpostaci Y 11 Y 12... Y 1K Y = Y 12 Y 22... Y 2K..., Y n1 Y n2... Y nk B jest macierzą rozmiaru (p + 1) K nieznanych współczynników regresji,natomiastejestmacierząbłędówrozmiarun Ktaką,że jej wartością oczekiwaną jest macierz zerowa.

Estymator ˆB macierzy B uzyskany metodą najmniejszych kwadratów jest równy ˆB = (X X) 1 X Y. JeżeliY {1,2,...,K},toE(Y k X =x) =P(Y =k X =x). Zatemk-taskładowawektoraŶ(x)jestoceną prawdopodobieństwa a posteriori P(Y = k X = x) przynależności obserwacjixdok-tejgrupy,k=1,2,...,k.chociażŷ k (x)jest ocenąprawdopodobieństwap(y =k X =x),towartościŷ k (x) mogą wykraczać poza przedział [0, 1]. Uzyskujemy zatem klasyfikator postaci ˆd(x) =argmaxŷ k (x), k gdzieŷk(x)jestk-tąskładowąwektoraŷ(x).

Regresja logistyczna Alternatywą dla modelu regresji liniowej jest model regresji logistycznej.niech (X i,y i),gdziey i {1,0},i=1,2,...,n, będzie próbą uczącą. Model regresji logistycznej ma postać p i =P(Y i =1 X i =x i ) = exp(β 0 + p j=1 β jx ij ) 1+exp(β 0 + p j=1 β jx ij ), gdzie β = (β 0,β 1,...,β p ).

Regresja logistyczna Model ten możemy zapisać w postaci równoważnej jako p logit(p i ) = β 0 + β j x ij, j=1 gdzie ( ) p logit(p) = ln. 1 p

Regresja logistyczna Nazwa regresja logistyczna pochodzi stąd, że funkcja e x /(1+e x )nazywanajestfunkcjąlogistyczną.

Regresja logistyczna Zauważmy,że1 p =P(Y =0 X =x)oraz ( ) ( ) p πf1 (x) ln =ln =ln 1 p (1 π)f 0 (x) ( f1 (x) f 0 (x) ) ( ) π +ln, 1 π gdzie π =P(Y =1),1 π =P(Y =0). Optymalnaregułazależytylkoodilorazugęstościf 1 (x)/f 0 (x).stąd iloraz ten możemy modelować bez specyfikowania indywidualnych gęstościf i (x),i =1,0,zapomocąmodelulogistycznego.Istnieje stosunkowo szeroka klasa rozkładów prawdopodobieństwa spełniających powyższe warunki, w tym klasa wielowymiarowych rozkładów normalnych z równymi macierzami kowariancji.

Regresja logistyczna Niestety nie można oszacować parametrów regresji logistycznej wprost. Musimy w tym celu posłużyć się metodami iteracyjnymi. Najczęściej wykorzystywana jest iteracyjna ważona metoda najmniejszych kwadratów. Ostatecznie klasyfikator ma postać ˆd(x) = { 1, jeżeli ˆβ0 + ˆβ 1 x 1 + + ˆβ p x p >0.5, 0, pozatym.

Redukcja liczby zmiennych w modelu regresji logistycznej Nie zawsze model pełny jest modelem najlepszym. Często modele mniejsze charakteryzują się lepszymi właściwościami generalizacji. Najczęściej konstruuje się wpierw model pełny, a następnie ten model redukuje się korzystając z pewnego kryterium optymalizacji modelu. Tutaj za takie kryterium przyjmiemy współczynnik Akaike, którego wartość jest równa: AIC = 2logL(ˆθ NW )+2 k, gdzie L(ˆθ NW )jestfunkcjąwiarogodnościdladanegomodelu policzoną dla wartości ENW[θ], natomiast k jest liczbą parametrów w modelu. Za model optymalny uznaje się model o najmniejszej wartości tego współczynnika.

Związek między regresją logistyczną i liniową analizą dyskryminacyjną Liniowa analiza dyskryminacyjna i regresja logistyczna są prawie tymsamym.wistociesątotesamemodele,ponieważprowadzą doklasyfikatoraliniowegowzględemwektorax= (x 1,x 2,...,x p ). Różnica polega tylko na sposobie estymacji parametrów.

Związek między regresją logistyczną i liniową analizą dyskryminacyjną Łącznyrozkładpojedynczejobserwacji (X,Y) magęstość f(x,y) =f(x y)f(y) =f(y x)f(x). W liniowej analizie dyskryminacyjnej estymujemy cały rozkład łączny poprzez maksymalizację funkcji wiarogodności n n n f(x i,y i ) = f(x i y i ) f(y i ). i=1 i=1 }{{} i=1 }{{} rozkład normalny rozkład Bernoulliego W regresji logistycznej maksymalizujemy warunkową funkcję wiarogodności n i=1 f(y i x i )alezaniedbujemydrugiczynnik n i=1 f(x i): n f(x i,y i ) = i=1 n f(y i x i ) i=1 }{{} n f(x i ). i=1 }{{} pomijamy rozkład logistyczny

Związek między regresją logistyczną i liniową analizą dyskryminacyjną Ponieważ reguła klasyfikacyjna wymaga znajomości tylko f(y x), to faktycznie nigdy nie musimy estymować całego łącznego rozkładu prawdopodobieństwa. Regresja logistyczna pomija estymację gęstości f(x) rozkładu brzegowego. Model regresji logistycznej jest zatem bardziej ogólny od modelu liniowej analizy dyskryminacyjnej, ponieważ wymaga mniej założeń.

Wprowadzenie Optymalny klasyfikator bayesowski wykorzystuje prawdopodobieństwa a priori oraz funkcje gęstości. Jeżeli wielkości teniesąznane,możemyjezastąpićichestymatoramizpróby uczącej w szczególności estymatorami jądrowymi funkcji gęstości.

Jądro Definicja Jądrem będziemy nazywać każdą gładką funkcję K taką, że K(x) 0, K(x)dx =1,K(x) =K( x).

Jądro Jądro jednostajne: Jądro gaussowskie(normalne): Jądro Epanechnikowa: K(x) = 1 2 I x 1(x), K(x) = (2π) 1 2exp Jądro stopnia trzeciego: ) ( x2 I R (x), 2 K(x) = 3 4 (1 x2 )I x 1 (x), K(x) = 70 81 (1 x 3 ) 3 I x 1 (x).

Jądro Przykłady jąder: a) jądro jednostajne, b) jądro gaussowskie, c) jądro Epanechnikowa, d) jądro stopnia trzeciego.

Estymator jądrowy Definicja Dla danego jądra K i dodatniej liczby h, zwanej współczynnikiem gładkości, jądrowy estymator Rosenblatta-Parzena gęstości f jest równy ˆf n (x) = 1 n n i=1 1 h K ( x Xi h ). W celu skonstruowania jądrowego estymatora gęstości, musimy wybrać jądro K i współczynnik gładkości h. Można pokazać, że wybór jądra K nie jest sprawą kluczową. Jednakże wybór współczynnika gładkości h jest bardzo istotny.